人工智能(AI)继续在金融服务业中寻找更多众多,更关键的应用,引起公平和道德的AI作为一种行业范围的目标。虽然近年来,许多道德原则和准则已经出版,但他们缺乏解决建立道德AI解决方案时开发商面临的严重挑战。我们调查了围绕模型开发的实用和总体问题,从设计和实施复杂,缺乏工具,缺乏组织结构。我们展示了实际考虑如何揭示高级原则和混凝土之间的差距,部署AI应用,目的是从行业范围的对话谈论解决方案方法。
translated by 谷歌翻译
Our goal with this survey is to provide an overview of the state of the art deep learning technologies for face generation and editing. We will cover popular latest architectures and discuss key ideas that make them work, such as inversion, latent representation, loss functions, training procedures, editing methods, and cross domain style transfer. We particularly focus on GAN-based architectures that have culminated in the StyleGAN approaches, which allow generation of high-quality face images and offer rich interfaces for controllable semantics editing and preserving photo quality. We aim to provide an entry point into the field for readers that have basic knowledge about the field of deep learning and are looking for an accessible introduction and overview.
translated by 谷歌翻译
Transformer models have achieved superior performance in various natural language processing tasks. However, the quadratic computational cost of the attention mechanism limits its practicality for long sequences. There are existing attention variants that improve the computational efficiency, but they have limited ability to effectively compute global information. In parallel to Transformer models, state space models (SSMs) are tailored for long sequences, but they are not flexible enough to capture complicated local information. We propose SPADE, short for $\underline{\textbf{S}}$tate s$\underline{\textbf{P}}$ace $\underline{\textbf{A}}$ugmente$\underline{\textbf{D}}$ Transform$\underline{\textbf{E}}$r. Specifically, we augment a SSM into the bottom layer of SPADE, and we employ efficient local attention methods for the other layers. The SSM augments global information, which complements the lack of long-range dependency issue in local attention methods. Experimental results on the Long Range Arena benchmark and language modeling tasks demonstrate the effectiveness of the proposed method. To further demonstrate the scalability of SPADE, we pre-train large encoder-decoder models and present fine-tuning results on natural language understanding and natural language generation tasks.
translated by 谷歌翻译
我们为对抗性多机器人群众跨任务中的决策制定开发了一个有弹性的二进制假设测试框架。该框架利用机器人之间的随机信任观察,以在集中式融合中心(FC)中得出可进行的弹性决策,即使I)在网络中存在恶意机器人,其数量可能大于合法机器人的数量,并且II )FC使用所有机器人的一次性噪声测量。我们得出两种算法来实现这一目标。第一个是两个阶段方法(2SA),该方法基于收到的信任观察估算机器人的合法性,并证明在最严重的恶意攻击中可最大程度地减少检测错误的可能性。在这里,恶意机器人的比例是已知但任意的。对于不明的恶意机器人,我们开发了对抗性的广义似然比测试(A-GLRT),该测试(A-GLRT)都使用报告的机器人测量和信任观察来估计机器人的可信赖性,其报告策略以及同时的正确假设。我们利用特殊的问题结构表明,尽管有几个未知的问题参数,但这种方法仍然可以计算处理。我们在硬件实验中部署了这两种算法,其中一组机器人会在模拟道路网络上进行交通状况的人群,但仍会受到SYBIL攻击的方式。我们从实际通信信号中提取每个机器人的信任观察结果,这些信号提供有关发件人独特性的统计信息。我们表明,即使恶意机器人在大多数情况下,FC也可以将检测误差的可能性降低到2SA和A-GLRT的30.5%和29%。
translated by 谷歌翻译
神经语言模型被广泛使用;但是,它们的模型参数通常需要适应时间和资源消耗的应用程序的特定域和任务。因此,最近引入了适配器作为模型适应的轻巧替代方案。它们由一组特定于任务的参数组成,这些参数缩短了训练时间和简单的参数组成。适配器训练和组成的简单性带来了新的挑战,例如保持适配器属性的概述,并有效地比较其生产的嵌入空间。为了帮助开发人员克服这些挑战,我们提供了双重贡献。首先,在与NLP研究人员的密切合作中,我们对支持适配器评估的方法进行了需求分析,并检测到了对固有的(即基于相似性的嵌入相似性)和外部(即基于预测的)解释方法的需求。 。其次,在收集的要求的激励下,我们设计了一个灵活的视觉分析工作空间,可以比较适配器属性。在本文中,我们讨论了几次设计迭代和替代方案,以进行交互式,比较视觉解释方法。我们的比较可视化表明,适应性嵌入媒介的差异和对​​各种人性化概念(例如,人的名字,人类素质)的预测结果。我们通过案例研究评估我们的工作空间,并表明,例如,根据Context-0(deNsTextualized)嵌入对语言偏见任务进行培训的适配器,引入了一种新型的偏见,其中单词(甚至与性别独立的单词)一样与女性代词更类似于女性。我们证明这些是上下文0嵌入的工件。
translated by 谷歌翻译
本文为我们最近在端到端优化的层次阶段性视频压缩方面提供了改进和新颖的补充,以进一步推进学到的视频压缩中的最新时间。作为改进,我们将运动估计和预测模块结合在一起,并压缩精制的残留运动向量,以提高速率延伸性能。作为新颖的添加,我们将提出的图像压缩的增益单元改编为柔性率视频压缩以两种方式:首先,增益单元使单个编码器模型能够以多速度距离操作点运行;其次,我们利用增益单元来控制内部编码与双向编码框架之间的位分配,通过微调相应的模型,用于真正的灵活率学习的视频编码。实验结果表明,我们获得的最先进的利率延伸性能超过了学到的视频编码中所有先前艺术的效果。
translated by 谷歌翻译
电子医疗保健记录是可用于患者分层的重要信息来源,以探索新型疾病表型。但是,它们可能具有挑战性,因为数据往往稀疏和不规则地采样。解决这些限制的一种方法是学习密集的嵌入,其代表使用经常性神经网络AutoEncoder(RNN-AE)的单个患者轨迹。该过程可以易于对不需要的数据偏差影响。我们表明,使用先前提出的RNN-AE模型的患者嵌入和群集可能受到轨迹偏差的影响,这意味着结果由每个患者轨迹中包含的数据量主导,而不是临床相关细节。我们调查了2个数据集(来自不同医院)和2个疾病区域的偏差,以及使用患者轨迹的不同部分。我们使用2个以前公布的基线方法的结果表示事件到最终轨迹的情况下特别强烈的偏见。我们提出了一种方法,可以使用RNN-AE顶部的对抗培训方案来克服这个问题。我们的研究结果表明,我们的方法可以减少所有情况下的轨迹偏差。
translated by 谷歌翻译
运动规划和导航,特别是对于在复杂导航环境中运行的移动机器人,自机器人启动以来一直是一个核心问题。一种解决它的启发式方法是构造基于图形的表示(路径),捕获配置空间的连接。概率路线图是机器人社区的常用方法,为导航移动机器人路径规划构建路径。在该研究中,提出了通过在障碍物的存在下从PRM获得路径之后的移动机器人路径规划的路径平坦化。所提出的方法以两个步骤运行;第一个在障碍物存在环境中生成初始状态之间的最短路径,其中通过连接中间节点来使用PRM来构造直线路径。第二步是通过节点存在引起的每个角落平滑。使用弧形圆角刮削角落确保移动机器人的光滑转弯。用不同的PRM功能模拟和测试了建议的方法。实验结果表明,构造的路径不仅仅是提供平稳的转动;在避免障碍时,它也更短且更快地完成机器人。
translated by 谷歌翻译
YOUTTS为零拍摄多扬声器TTS的任务带来了多语言方法的力量。我们的方法在VITS模型上构建,并为零拍摄的多扬声器和多语言训练增加了几种新颖的修改。我们实现了最先进的(SOTA)导致零拍摄的多扬声器TTS以及与VCTK数据集上的零拍语音转换中的SOTA相当的结果。此外,我们的方法可以实现具有单扬声器数据集的目标语言的有希望的结果,以低资源语言为零拍摄多扬声器TTS和零拍语音转换系统的开放可能性。最后,可以微调言论不到1分钟的言论,并实现最先进的语音相似性和合理的质量。这对于允许具有非常不同的语音或从训练期间的记录特征的讲话来合成非常重要。
translated by 谷歌翻译
Understanding the variations in trading price (volatility), and its response to exogenous information, is a well-researched topic in finance. In this study, we focus on finding stable and accurate volatility predictors for a relatively new asset class of cryptocurrencies, in particular Bitcoin, using deep learning representations of public social media data obtained from Twitter. For our experiments, we extracted semantic information and user statistics from over 30 million Bitcoin-related tweets, in conjunction with 15-minute frequency price data over a horizon of 144 days. Using this data, we built several deep learning architectures that utilized different combinations of the gathered information. For each model, we conducted ablation studies to assess the influence of different components and feature sets over the prediction accuracy. We found statistical evidences for the hypotheses that: (i) temporal convolutional networks perform significantly better than both classical autoregressive models and other deep learning-based architectures in the literature, and (ii) tweet author meta-information, even detached from the tweet itself, is a better predictor of volatility than the semantic content and tweet volume statistics. We demonstrate how different information sets gathered from social media can be utilized in different architectures and how they affect the prediction results. As an additional contribution, we make our dataset public for future research.
translated by 谷歌翻译